@马创新等：《先秦诸家学派的相关系数与特征词研究》

研究背景与目的

背景: 先秦诸子百家思想研究，历来以定性分析为主。
目的: 运用计算语言学和数字人文方法，对先秦主要学派（儒、道、法、兵、墨）进行定量研究。
核心任务:
- 计算学派间的相关度，探究其思想亲疏。
- 识别各学派的主题特征词，揭示其核心思想。

研究方法与过程

核心思路

将文本词语的出现频次转化为等级。
通过等级归一化（等值化），解决不同文献体量差异问题。
运用统计学公式计算相关度与特征词。

语料库 (Corpus)

儒家: 《论语》、《孟子》
道家: 《老子》、《庄子》
法家: 《韩非子》、《商君书》
兵家: 《孙子》、《吴子》
墨家: 《墨子》

计算步骤

词频与排序:
- 统计各文献词频，按频次降序排列。
- 使用“并列法”处理同频词，即同频词等级相同。
等级等值化 (Normalization):
- 问题: 各文献词型总数不同，原始等级不具可比性。
- 方法: 为每部文献设定“等级系数”，进行归一化，得到“转化等级”。
  - 等级系数 = 100 / 文献最大词型等级
学派内等级确定:
- 对于同学派内的多部文献（如儒家、道家），其共有词的“最终等级”为其各自“转化等级”的平均值。
相关度计算 (Spearman's Rank Correlation):
- 原理: 计算两两学派间高频共有词的等级序列相关性。
- 公式: $R = 1 - \frac{6 \sum D^{2}}{n (n^{2} - 1)}$
  - $D$ : 每一对词型的等级差。
  - $n$ : 样本数（词型数量）。
  - 我们用ARs来表示“以学派A中特定数量词型为样本”与学派B中全部词型比较所得到的相关系数,对于在学派A中出现而学派B中没有出现的词型,就假定该词型在学派B中的最终等级为101。
  - 学派A与B的相关度用ABRs来表示,ABRs等于ARs与BRs的均值,即:ABRs=(ARs+BRs)/2。
特征词计算 (Rank Difference Method):
- 原理: 计算某词在特定学派中的等级，与它在其他所有对比学派中平均等级的差值。
- 公式: $D_{i} = \frac{\sum_{j = 1}^{n} D_{i j}}{n}$
  - $D_{i}$ : 词语在特定学派中的特征系数。
  - $D_{i j}$ : 该词在“对比学派 j”与“特定学派”中的最终等级之差。
  - $n$ : 对比学派的数量。
- 系数解读:
  - 正值: 表明该词在本学派中重要性显著更高。
  - 负值/零: 表明该词在本学派中重要性更低或相当。

主要研究发现

学派间相关度

最高相关: 儒家与道家 (0.86)
- 原因: 思想接近，共同关注“民本”，提倡以道德为基础的治理理念。
最低相关: 兵家与墨家 (0.36)
- 原因: 思想差异巨大。墨家主张“兼爱非攻”，兵家聚焦“用兵之道”。
最高平均相关度 (影响力最强): 道家
- 说明: 先秦时期，道家思想对其他学派影响广泛且深入。

各学派核心特征词

儒家:
- 孔子, 仁, 君子, 禮, 學, 問, 子路, 子貢
道家:
- 德, 聖人, 物, 生, 始, 天下, 道, 名, 無為
法家:
- 主, 法, 姦, 私, 力, 官, 刑, 賞, 勢
兵家:
- 軍, 戰, 敵, 兵, 擊, 勝, 地, 進, 卒
墨家:
- 尺, 城, 愛, 兼, 天, 鬼, 義, 政, 攻

结论

方法有效:
- 本文提出的定量分析方法是可行的，能有效揭示学派间的关系和各自的核心思想。
结果印证:
- 计算结果（相关度、特征词）与传统定性研究的结论基本相符，并提供了数据支持。
推广价值:
- 此方法可应用于其他类似的思想史或文本比较研究中。